视觉语言模型(VLM)具有重大的概括能力,并且对VLM的迅速学习引起了人们的极大关注,因为它能够使预先训练的VLM适应既定的下游任务。但是,现有的研究主要集中于单模式提示或单向模态互动,从而忽略了视觉和语言方式之间的相互作用所带来的强大对齐效应。为此,我们提出了一种新颖的及时学习方法,称为B i方向i nteraction p rompt(BMIP),该方法通过学习注意力层的信息,增强了与简单的Inforormation聚合方法相比,通过学习注意力层的信息,增强了训练层的信息,增强了运动层的信息,增强了训练层的信息,增强了双向信息。为了评估迅速学习方法的有效性,我们提出了一个更现实的评估范式,称为开放世界概括,补充了广泛采用的跨数据库转移和域通用任务。在各种数据集上进行的综合实验表明,BMIP不仅比所有三种评估范式的当前最新方法都胜过当前的最新方法,而且还足够灵活,可以与其他基于及时的及时性能增强的方法结合使用。
主要关键词
![arxiv:2501.07769v1 [cs.lg] 2025年1月14日PDF文件第1页](/bimg/1/1ae27df7e1a552cb808452fad488cdfc591e6aed.webp)
![arxiv:2501.07769v1 [cs.lg] 2025年1月14日PDF文件第2页](/bimg/9/924a58beb4a91b258ed49e3d1bdd56991d877dfa.webp)
![arxiv:2501.07769v1 [cs.lg] 2025年1月14日PDF文件第3页](/bimg/f/f3330d416161017db4f1f89f5b35f5c53250f0ee.webp)
![arxiv:2501.07769v1 [cs.lg] 2025年1月14日PDF文件第4页](/bimg/3/32a9eafc039a6d84d975d7526a7f96609ac247ae.webp)
![arxiv:2501.07769v1 [cs.lg] 2025年1月14日PDF文件第5页](/bimg/b/b2c811e324501fac952cb3339c7f7254432aeb3a.webp)

![arxiv:2501.07769v1 [cs.lg] 2025年1月14日](/simg/2/27caac521555f28e8d68c7195ac7286b0f5dcb90.webp)